最近的技术进步引入了新的高通量方法来研究宿主-病毒相互作用,但在感染期间测试宿主基因对之间的协同相互作用仍然相对缓慢且劳动密集。识别有效抑制病毒复制的多基因敲除需要搜索所有可能的目标基因对的组合空间,而通过蛮力实验是行不通的。尽管用于顺序实验设计的主动学习方法已显示出良好的前景,但现有方法通常仅限于单基因敲除或小规模双基因敲除数据集。在本研究中,我们提出了一个集成的深度主动学习 (DeepAL) 框架,该框架结合了来自生物知识图谱 (SPOKE,可扩展精准医学开放知识引擎) 的信息,以有效地搜索 HIV 感染中 356 个人类基因的所有成对敲除的大型数据集的配置空间。通过图形表示学习,该框架能够生成特定于任务的基因表示,同时平衡探索-利用权衡,以精确定位高效的双基因敲除对。我们还提出了一种用于不确定性量化的集成方法,以及通过通路分析对我们的算法选择的基因对进行解释。据我们所知,这是第一项在规模可观的双基因敲除实验数据(356 x 356 矩阵)上显示出良好结果的研究。
主要关键词